触摸是人类之间互动和交流的关键部分,但在人类机器人的互动中仍然很少探索。在这项工作中,要求参与者接近并触摸手上的人形机器人(NAO -26名参与者; Pepper -28名参与者),以引起注意。我们为机器人设计了反应行为,该机器人由四种不同的手臂运动组合组成,而被触摸的手向前或向后移动,另一只手向前移动或保持到位,同时向后倾斜,然后看参与者。我们研究了机器人的哪种反应发现最合适的是他们选择的原因。对于两个机器人,被触摸的机器人手的首选反应正在向后移动。另一方面,根本没有任何动作对胡椒来说最自然,而NAO则是向前移动的。发现了参与者人格特征的焦虑量表与机器人反应的主动/侵略性的被动性分量表之间的相关性。大多数参与者注意到倾斜的后背并积极地对其进行了评分。一些参与者在非结构化评论中对参与者进行了积极评论。我们还分析了参与者在哪里以及如何自发接触机器人手上的地方。总而言之,这里设计的触摸反应行为是一个很好的候选人,可以更普遍地在社交机器人中部署,可能包括在拥挤的环境中偶然触摸。机器人尺寸构成了一个重要因素,该因素塑造了如何感知机器人反应。
translated by 谷歌翻译
We propose AnyTOD, an end-to-end task-oriented dialog (TOD) system with zero-shot capability for unseen tasks. We view TOD as a program executed by a language model (LM), where program logic and ontology is provided by a designer in the form of a schema. To enable generalization onto unseen schemas and programs without prior training, AnyTOD adopts a neuro-symbolic approach. A neural LM keeps track of events that occur during a conversation, and a symbolic program implementing the dialog policy is executed to recommend next actions AnyTOD should take. This approach drastically reduces data annotation and model training requirements, addressing a long-standing challenge in TOD research: rapidly adapting a TOD system to unseen tasks and domains. We demonstrate state-of-the-art results on the STAR and ABCD benchmarks, as well as AnyTOD's strong zero-shot transfer capability in low-resource settings. In addition, we release STARv2, an updated version of the STAR dataset with richer data annotations, for benchmarking zero-shot end-to-end TOD models.
translated by 谷歌翻译
Most research on task oriented dialog modeling is based on written text input. However, users interact with practical dialog systems often using speech as input. Typically, systems convert speech into text using an Automatic Speech Recognition (ASR) system, introducing errors. Furthermore, these systems do not address the differences in written and spoken language. The research on this topic is stymied by the lack of a public corpus. Motivated by these considerations, our goal in hosting the speech-aware dialog state tracking challenge was to create a public corpus or task which can be used to investigate the performance gap between the written and spoken forms of input, develop models that could alleviate this gap, and establish whether Text-to-Speech-based (TTS) systems is a reasonable surrogate to the more-labor intensive human data collection. We created three spoken versions of the popular written-domain MultiWoz task -- (a) TTS-Verbatim: written user inputs were converted into speech waveforms using a TTS system, (b) Human-Verbatim: humans spoke the user inputs verbatim, and (c) Human-paraphrased: humans paraphrased the user inputs. Additionally, we provided different forms of ASR output to encourage wider participation from teams that may not have access to state-of-the-art ASR systems. These included ASR transcripts, word time stamps, and latent representations of the audio (audio encoder outputs). In this paper, we describe the corpus, report results from participating teams, provide preliminary analyses of their results, and summarize the current state-of-the-art in this domain.
translated by 谷歌翻译
深层生成模型有可能从根本上改变我们创建高保真数字内容的方式,但通常很难控制。提示生成模型是一个有希望的最新发展,原则上,最终用户可以创造性地利用零击和几乎没有学习的学习来将新任务分配给AI Ad-Hoc,只需将其写下即可。但是,对于大多数最终用户而言,编写有效提示目前主要是试验和错误过程。为了解决这个问题,我们讨论了使用促使人类互动的新范式的交互式创意应用程序的关键机会和挑战。根据我们的分析,我们为支持提示的用户界面提出了四个设计目标。我们用混凝土UI设计草图说明了这些内容,重点是创意写作的用例。HCI和AI的研究社区可以将这些作为起点,以开发足够的用户界面,以供能够零和少数学习的模型。
translated by 谷歌翻译
我们提出了一个文本编辑器,以帮助用户计划,结构并反思其写作过程。它使用自动文本摘要提供了不断更新的段落摘要作为边缘注释。摘要级别范围从全文到选定的(中央)句子,一直到关键字的集合。为了了解用户在写作过程中如何与该系统进行交互,我们进行了两项用户研究(n = 4和n = 8),人们在其中写了有关给定主题和文章的分析文章。作为关键发现,这些摘要使用户对他们的写作有了外部视角,并帮助他们修改了草稿段落的内容和范围。人们进一步使用该工具快速获得文本概述,并制定了整合自动摘要中见解的策略。从更广泛的角度来看,这项工作探索并突出了为作家设计AI工具的价值,其自然语言处理(NLP)功能超出了直接文本生成和更正。
translated by 谷歌翻译
我们介绍了一个新的数据集,以通过口头答案对知识图(kgs)回答对话问题。目前,关于KGS的问题回答是针对单转问题的答案(KGQA)或多型对话对话问题答案(Convqa)。但是,在现实情况下(例如,Siri,Alexa和Google Assistant等语音助手),用户更喜欢口头上的答案。本文通过将现有的ConvQA数据集扩展到具有多种释义的言语答案,从而为最先进的方法做出了贡献。我们使用五个序列到序列模型进行实验,以生成答案响应,同时保持语法正确性。我们还执行错误分析,该分析详细介绍了模型在指定类别中的错误预测率。我们提出的随着答案语言扩展的数据集可公开使用,其中包含有关其更广泛用途的使用的详细文档。
translated by 谷歌翻译
知识图,例如Wikidata,包括结构和文本知识,以表示知识。对于图形嵌入和语言模型的两种方式中的每种方法都可以学习预测新型结构知识的模式。很少有方法与模式结合学习和推断,而这些现有的方法只能部分利用结构和文本知识的相互作用。在我们的方法中,我们以单个方式的现有强烈表示为基础,并使用超复杂代数来表示(i),(i),单模式嵌入以及(ii),不同方式之间的相互作用及其互补的知识表示手段。更具体地说,我们建议4D超复合数的二脑和四个元素表示,以整合四个模态,即结构知识图形嵌入,单词级表示(例如\ word2vec,fastText,fastText),句子级表示(句子transformer)和文档级表示(句子级别)(句子级别)(句子级表示)(句子变压器,doc2vec)。我们的统一矢量表示通过汉密尔顿和二脑产物进行标记的边缘的合理性,从而对不同模态之间的成对相互作用进行建模。对标准基准数据集的广泛实验评估显示了我们两个新模型的优越性,除了稀疏的结构知识外,还可以提高链接预测任务中的性能。
translated by 谷歌翻译
神经语言模型有可能支持人类写作。但是,关于其整合和对写作和产出的影响仍然存在问题。为了解决这个问题,我们设计并比较了两个用于写作的用户界面与移动设备上的AI,这些用户界面操纵主动性和控制级别:1)使用连续生成的文本编写,AI添加了逐字文字和用户转向。 2)编写建议,AI建议短语和用户从列表中选择。在监督的在线研究(n = 18)中,参与者使用了这些原型和无AI的基线。我们收集了触摸互动,关于灵感和作者的评分以及访谈数据。有了AI的建议,人们的写作不那么积极,但觉得他们是作者。连续生成的文本减少了这种感知的作者身份,但编辑行为增加了。在这两种设计中,AI都会增加文本长度,并被认为会影响措辞。我们的发现为UI设计决策对用户体验和共同创造系统的产出的影响增加了新的经验证据。
translated by 谷歌翻译
在实际应用桥梁称重(BWIM)方法中,车辆通过期间车轮或车轴的位置在大多数情况下是先决条件。为了避免使用常规轴检测器和桥梁类型特定的方法,我们提出了一种新的方法来通过在桥梁的任何点上放置加速度计来检测轴检测。为了开发尽可能简单且可理解的模型,将轴检测任务实现为二进制分类问题,而不是回归问题。该模型被用作完全卷积网络,以连续小波变换的形式处理信号。这允许在单个步骤中以最大效率处理任何长度的段落,同时在单个评估中使用多个量表。这使我们的方法能够在桥结构的任何位置使用加速信号,该位置用作虚拟轴检测器(VADS),而无需仅限于特定的结构类型的桥梁。为了测试提出的方法,我们分析了在长途交通线的钢槽铁路桥上记录的3787列火车通道。我们在测量数据上的结果表明,我们的模型检测到轴的95%,因此,正确检测到了134,800个以前看不见的轴的128,599。总共可以以20厘米的最大空间误差检测到90%的车轴,最大速度为$ v _ {\ mathrm {max}} = 56,3〜 \ mathrm {m/s} $。分析表明,即使在实际操作条件下,我们开发的模型也可以使用加速度计作为VAD。
translated by 谷歌翻译
贝叶斯方法是由于先验引起的正则化效应,这是对统计学的统计推断的流行选择,该效应可抵消过度拟合。在密度估计的背景下,标准的贝叶斯方法是针对后验预测。通常,后验预测的直接估计是棘手的,因此方法通常诉诸于后验分布作为中间步骤。然而,最近的递归预测copula更新的开发使得无需后近似即可执行可拖动的预测密度估计。尽管这些估计器在计算上具有吸引力,但它们倾向于在非平滑数据分布上挣扎。这在很大程度上是由于可能从中得出所提出的Copula更新的可能性模型的相对限制性形式。为了解决这一缺点,我们考虑了具有自回归似然分解和高斯过程的贝叶斯非参数模型,该模型在Copula更新中产生了数据依赖于数据的带宽参数。此外,我们使用自回归神经网络对带宽进行新的参数化,从而将数据映射到潜在空间中,从而能够捕获数据中更复杂的依赖性。我们的扩展增加了现有的递归贝叶斯密度估计器的建模能力,从而在表格数据集上实现了最新的结果。
translated by 谷歌翻译